Inleiding statistiek

Bennett Kleinberg

Week 4

Week 4

  • Deel 1: verdelingen en steekproeven
  • Deel 2: inleiding tot hypothesetests
  • Deel 3: fouten in gevolgtrekkingen

DEEL 1: Verdelingen en steekproeven

Weer steekproeven!

Het onderliggende idee

  • er is een populatie
  • maar we hebben er nooit toegang toe
  • theoretisch argument

Dus sampling is onze redding.

Onze data

  • stel dat we toegang hebben tot de hele populatie
  • d.w.z. dat we van elke persoon de attribuutwaarde weten
  • hier: de lengte van elke volwassene in Nederland (zeg: 10m)

Populatieparameters (in cm):

\(\mu = 175\) en \(\sigma = 7\)

Populatie data

Van de hele populatie van 10 miljoen volwassenen:

id height
1 174
2 198
9999999 156
10000000 180

Histogram

Steekproeven trekken

Wij zijn nu de onderzoekers:

We weten dit allemaal niet van de populatie!!!

We willen weten hoe lang Nederlandse volwassenen zijn.

  • We kunnen het niet aan iedere volwassene in Nederland vragen
  • dus moeten we steekproeven trekken

Laten we beginnen…

Steekproef van 3

\(n=3\)

id height
693610 158.61
8177752 181.76
9426218 172.30

\(M = \frac{\sum{{X}}}{n} = \frac{158.61+181.76+172.30}{3} = \frac{512.67}{3} = 170.89\)

\(SD = \sqrt{\frac{SS}{n-1}}\)

\(SS =\sum{{(X-M)^2}} = (158.61-175.00)^2+... = 321.62\)

\(SD = \sqrt{\frac{321.62}{3-1}} =\sqrt{160.81} =12.68\)

Sampling error

Wanneer we statistieken uit onze data halen, hebben we het over:

  • populatieparameters
  • steekproefstatistieken

De steekproeffout (Engelse: sampling error) is het verschil tussen die twee.

Hier:

  • \(\mu = 175\) but \(M=170.89\)
  • \(\sigma = 7\) but \(SD=12.68\)

Wat als we opnieuw een streekproef trekken?

We herhalen het: nu nemen we twee keer een steekproef van \(n=3\).

sample n mean_height
1 3 170.89
2 3 175.21

Nog meer…

Herhaaldelijk steekproeven trekken: 10 keer een steekproef van \(n=3\)

sample n mean_height
1 3 170.89
2 3 175.21
3 3 175.40
4 3 172.42
5 3 177.65
6 3 180.61
7 3 169.51
8 3 179.00
9 3 179.69
10 3 174.82

Verdeling van de gemiddelden

1000 keer herhaald

Beter nog…

Waarom vergroten we niet ook de steekproefgrootte \(n\)?

sample n mean_height
1 20 175.17
2 20 174.15
3 20 178.14
4 20 173.99
5 20 173.45
6 20 177.54
7 20 175.86
8 20 172.75
9 20 176.58
10 20 175.04

Het gemiddelde van de gemiddelden

We hebben nu 10 keer “gesampled” met \(n=20\).

Het gemiddelde van de 10 gemiddelden is:

## [1] 175.27

Denk terug aan wat we gedaan hebben?

We hebben het aantal steekproeven en de steekproefgrootte vergroot om de steekproeffout te verkleinen

Iets raars gebeurde

Vele steekproeven, kleine n

Vele steekproeven, grote n

Wat nu?

Denk eraan: we willen het gemiddelde \(M\) schatten (we hebben nooit toegang tot de populatie).

Moeten we dus vele, vele steekproeven nemen met grote steekproefgroottes?

Gelukkig is er een wiskundig theorema dat ons kan redden!

De Centrale Limiet Stelling

De centrale limiet stelling (Engels: Central limit Theorem, CLT) stelt dat:

  • voor een populatie met een gemiddelde \(\mu\) en een standaardafwijking \(\sigma\)
  • de verdeling van de steekproefgemiddelden (elk met steekproefgrootte \(n\)) volgende kenmerken heeft:
    • een gemiddelde van \(\mu\)
    • en een standaardafwijking van \(\frac{\sigma}{\sqrt{n}}\)

En: het zal de normale verdeling benaderen met toenemende \(n\)

Terugspoelen…

  • We weten dat we met de normale verdeling om kunnen gaan (z-scores, kansen)
  • De CLT stelt nu dat met toenemende steekproefgrootte \(n\), de verdeling van steekproefgemiddelden normaal wordt
  • … van een populatie die een willekeurige vorm van verdeling heeft.

Dit is als een levensredder.

De verdeling van de steekproefgemiddelden

Vorm:

De verdeling van steekproefgemiddelden benadert de normale verdeling als:

  • de populatie een normale verdeling is, of
  • \(n\) groot wordt (vuistregel: \(n > 30\))

De verdeling van de steekproefgemiddelden

Centrale tendens (het gemiddelde):

  • als we alle mogelijke steekproefcombinaties hebben: per definitie is \(\mu = M\)
  • onthoud: dit is waarom \(M\) een unbiased statistiek is

Maar we hebben niet altijd alle mogelijke steekproeven (eigenlijk: nooit!).

Dus weten we dat \(M \approx \mu\) is. We hebben dus een soort “variabiliteitsindicator” nodig voor het gemiddelde (van de steekproefgemiddelden)…

De verdeling van de steekproefgemiddelden

Variabiliteit van het gemiddelde: de standaardfout van het gemiddelde (standard error of the mean)

  • Zelfde idee als de standaardafwijking
  • In feite: het is de standaardafwijking van de gemiddelden

\(SE = \sigma_M = \frac{\sigma}{\sqrt{n}}\)

Kan ook worden geschreven als: \(SE = \sqrt{\frac{\sigma^2}{n}}\)

Voorbeeld

We nemen een steekproef van \(n=1\) uit onze data en krijgen:

## [1] 170.77

De standaardfout is \(SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{1}} = 7\)

Met \(n=1\), \(SE = \sigma\).

\(n\) verhogen

Denk terug: onze populatie had \(\mu=175\) en \(\sigma=7\).

n SE
1 7.00
2 4.95
3 4.04
4 3.50
5 3.13
10 2.21
100 0.70
1000 0.22

Visueel

Putting it all together

Als we de volgende gegevens weten:

  • het populatiegemiddelde.
  • de standaardafwijking van de populatie
  • de grootte van de steekproef \(n\)

Dan kunnen we de CLT gebruiken om de vorm, het gemiddelde en de standaardafwijking (standaardfout) van de verdeling van de steekproefgemiddelden te vinden!

Voorbeeld

Onze lengtedata met \(\mu=175\) en \(\sigma=7\).

We nemen een steekproef van \(n=60\).

Dus, de verdeling van steekproefgemiddelden heeft:

  • een gemiddelde van \(\mu=175\)
  • een standaardfout van \(SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{60}} = 0.90\)
  • de vorm van de normale verdeling

Verdeling van steekproefgemiddelden

Now comes the magic

z-scores

Gegeven onze lengte-data met \(\mu=175\) en \(\sigma=7\):

We nemen nu een steekproef van \(n=100\). Wat is de kans dat de gemiddelde lengte van die steekproef 177cm of hoger is?

Informatie over de verdeling van de steekproefgemiddelden stapsgewijs:

  1. gemiddelde van \(\mu = 175\)
  2. standaardfout van \(SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{100}} = 0.70\)
  3. de vorm van een normale verdeling

Hypothetische verdeling

z-score logica

Verkrijgen van de z-score:

  • \(z=\frac{M-\mu}{\sigma_M} = \frac{177-175}{0.70} = \frac{2}{0.70} = 2.86\)

Zoek het gebied van belang:

  • We kijken naar een “X of hoger” probleem en we zitten boven het gemiddelde:
  • dus we hebben de staart proporties nodig voor \(z=2.86\)

z-score logica

Vertalen van proporties naar kansen:

  • tail prop. voor \(z=2.86\) –> .0021
  • \(p=.0021\)

De kans dat de steekproef van \(n=100\) een gemiddelde van 177 of hoger heeft is 0.0021 (0.21%)

Belangrijk

Er zijn twee soorten z-scores (of: twee berekeningen):

  1. z-scores voor enkele scores: \(z=\frac{X-\mu}{\sigma}\)
  2. z-scores voor steekproefgemiddelden: \(z=\frac{M-\mu}{\sigma_M}\)

Opmerking: bij hypothesetests zijn wij vooral geïnteresseerd in vergelijkingen van steekproefgemiddelden!

Law of large numbers

Sampling error vs standard error

Steekproeffout = populatieparameters - steekproefstatistiek:

  1. We weten dat als \(n\) groot wordt, \(SE\) kleiner wordt.
  2. Als \(SE\) kleiner wordt, dan komt \(M\) steeds dichter bij \(\mu\)

Met andere woorden: met toenemende \(n\) verkleinen we de standaardfout \(SE\), en verkleinen we dus de steekproeffout!

PART 2: Hypothesetoetsen

Kernidee

We willen een hypothese over een populatie testen.

Omdat we nooit toegang kunnen hebben tot de hele populatie, moeten we werken met een steekproef.

Dat wil zeggen dat we geïnteresseerd zijn in het maken van een gevolgtrekking (we betreden nu het terrein van de inferentiële statistiek) over een populatie uit een steekproef

Neem dit voorbeeld

Extra lessen voor het inleiding statistiek tentamen.

Laten we dit stap voor stap doornemen.

Het scenario

Stel het examencijfer \(X\) van het “intro to stats” tentamen vormt deze verdeling \(X \sim N(6.9, 1.1)\).

Je gaat nu testen of extra lessen een effect hebben op het tentamencijfer.

Je formuleert dus een hypothese als volgt:

  • Conceptueel: als een student extra lessen volgde, was het tentamencijfer hoger dan zonder extra lessen.
  • Statistische hypothesen:
    • nulhypothese: er is geen effect van het hebben van extra lessen
    • alternatieve hypothese: extra lessen verhogen het cijfer

Twee soorten statistische hypothesen

De nulhypothese:

  • stelt dat er geen effect is (“null”)
  • hier: het gemiddelde van de steekproef van leerlingen die bijles hebben gehad is hetzelfde als het gemiddelde van de populatie
  • notatie: \(H_0: \mu = 6.9\)

De alternatieve hypothese:

  • de effecthypothese: stelt dat er een effect is (het alternatief voor de nul)
  • hier: het gemiddelde van de steekproef van leerlingen die bijles hebben gehad is hoger dan het gemiddelde van de populatie
  • notatie: \(H_1: \mu > 6.9\) (ook gebruikelijk: \(H_A: \mu > 6.9\))

De populatie

Terug naar de vraag

Je test nu of extra lessen een effect hebben op het tenatemncijfer.

  • \(H_0: \mu = 6.9\)
  • \(H_1: \mu > 6.9\)

Je hebt toegang tot een steekproef van \(n=49\) studenten die extra lessen volgden.

De logica van NHST (1)

NHST = null hypothesis significance testing

  1. we weten dat we onder \(H_0\) een steekproefgemiddelde van \(M=6.9\) verwachten
  2. het hoeft niet precies \(M=6.9\) te zijn: als de nulhypothese zou worden ondersteund, zouden we een steekproefgemiddelde vinden dat dicht bij die waarde ligt
  3. we kunnen de CLT gebruiken om de verdeling van de steekproefgemiddelden onder \(H_0\) op te stellen

We weten dat de verdeling van de steekproefgemiddelden onder \(H_0\) met \(n=49\) een gemiddelde heeft van \(\mu=6.9\) en een standaardafwijking van \(\sigma_m = \frac{\sigma}{\sqrt{n}} = \frac{1.10}{7} = 0.16\)

De nul hyp.

De logica van NHST (2)

  1. we weten dat we onder \(H_0\) een steekproefgemiddelde van \(M=6.9\) verwachten
  2. het hoeft niet precies \(M=6.9\) te zijn: als de nulhypothese zou worden ondersteund, zouden we een steekproefgemiddelde vinden dat dicht bij die waarde ligt
  3. we kunnen de CLT gebruiken om de verdeling van de steekproefgemiddelden onder \(H_0\) op te stellen
  4. als het geobserveerde steekproefgemiddelde (van onze \(n=49\) steekproef met extra lessen) zeer onwaarschijnlijk is onder de verwachte gegevens, zouden we de nulhypothese verwerpen

Belangrijk

Als het waargenomen steekproefgemiddelde (van onze \(n=49\) steekproef met extra lessen) zeer onwaarschijnlijk is onder de verwachte gegevens, zouden we de nul verwerpen.

Daarom heet dit nulhypothese significantietest.

Maar wat betekent zeer onwaarschijnlijk?

Het idee van significantie

In NHST wordt zeer onwaarschijnlijk vertaald naar statistisch significant verschillend.

Ook wel: het alpha-niveau.

b.v. een alpha-niveau van \(\alpha = 0.01\) betekent dat we een waarde onwaarschijnlijk achten (of statistisch significant verschillend) als de waarschijnlijkheid dat we die waarnemen kleiner is dan \(\alpha\).

Terugkeer van het z-score idee

Onthoud: we kennen dit waarschijnlijkheids-verhaal en het idee van “onwaarschijnlijk”!

Het alpha-niveau komt precies overeen met regio’s in de verdeling.

Meer specifiek:

  • \(\alpha = 0.05\) is het gebied in de staart(en) waar waarden liggen die een waarschijnlijkheid hebben van minder dan 5%
  • \(\alpha = 0.01\) is het gebied in de staart(en) waar waarden liggen die een waarschijnlijkheid van minder dan 1% hebben

Alpha en kritische gebieden

Statistische significantie

We kunnen de z-scores vinden die overeenkomen met staartproporties (en dus: waarschijnlijkheden).

Belangrijk:

Als we een hoger dan of lager dan \(H_1\) hebben, dan noemen we dit een directionele hypothese.

  • Dit “laadt alle onwaarschijnlijkheden” naar één staart

Voorbeeld:

\(\alpha = 0.05\) en een directionele \(H_1\) hebben een z-score nodig die een staartwaarschijnlijkheid heeft van 0.05.

Statistische significantie

Belangrijk:

Als we een anders dan \(H_1\) hebben, dan noemen we dit een non-directionele hypothese (d.w.z. we stellen alleen maar dat het anders is dan wat we onder de nul verwachten, maar hebben geen idee in welke richting).

  • Dit betekent dat we alle onwaarschijnlijkheden naar beide staarten moeten “spreiden”.

Voorbeeld:

\(\alpha = 0.05\) en een non-directionele \(H_1\) hebben een z-score nodig die een staartwaarschijnlijkheid heeft van 0.025 (omdat hij zich over beide staarten verspreidt!!).

Soorten hypotheses

Directionele alternatieve hypotheses:

  • we doen een voorspelling over de richting van het verschil (hoger/lager dan het nulgemiddelde)
  • we gebruiken een one-tailed hypothesetoets
  • de onwaarschijnlijkheden zitten in één staart

Niet-directionele alternatieve hypothesen:

  • we doen geen voorspelling over de richting van het verschil, maar stellen alleen dat het verschilt van het (nulgemiddelde), d.w.z. hoger of lager
  • wij gebruiken een “tweestaartige” (two-tailed) hypothesetoets
  • de onwaarschijnlijkheden worden in beide staarten gespreid

Terug naar ons voorbeeld

We testen nu onze hypothese

  • We hadden een steekproef van \(n=49\) die extra lessen kregen
  • En we besluiten om waarden met een waarschijnlijkheid onder de nul van minder dan 1% als onwaarschijnlijk te achten
    • d.w.z. ons alpha-niveau is \(=0.01\)

Aangezien we een directionele \(H_1\) hebben die stelt \(H_1: \mu > 6.9\), laden we alle onwaarschijnlijkheden naar de rechterstaart.

Nu verzamelen we de data

We hebben de data van onze \(n=49\) steekproef geanalyseerd:

Het steekproefgemiddelde is \(M=7.46\)

Significantietest

We verkrijgen de z-score voor het steekproefgemiddelde (zie p. 210 in het boek).

\(z=\frac{M-\mu}{\sigma_M} = \frac{7.46-6.90}{0.16} = \frac{0.56}{0.16} = 3.5\)

Dus:

  • het geobserveerde gemiddelde (met extra statistiek lessen) is 0.56 cijfers hoger dan wat we zouden verwacht hebben onder de nulhypothese
  • dit verschil komt overeen met een z-score van \(z=3.5\)
  • d.w.z. het waargenomen gemiddelde ligt 3.5 standaarddeviaties boven het nulgemiddelde

Interpretatie van onze hypotheses

  • \(H_0: \mu = 6.9\)
  • \(H_1: \mu > 6.9\)
  • Geobserveerd: \(M=7.46\)
  • z-score van 3.5

Het is een directionele \(H_1\), dus kijken we naar de staart voor \(z=3.5\):

z body tail M-to-z
3.50 .9998 .0002 .4998

Interpretatie

z body tail M-to-z
3.50 .9998 .0002 .4998

Het observeren van een gemiddelde van \(M=7.46\) of hoger heeft een waarschijnlijkheid van 0.0002 (of 0.02%) onder de nulhypothese.

Dit is lager dan onze vooraf bepaalde drempelwaarde van \(\alpha = 0.01\):

Daarom verwerpen wij de nulhypothese.

Onze gegevens ondersteunen de alternatieve hypothese dat extra lessen het cijfer hebben verbeterd.

De p-waarde

z body tail M-to-z
3.50 .9998 .0002 .4998

Een gemiddelde van \(M=7.46\) of hoger heeft een kans van 0.0002 (of 0.02%) onder de nulhypothese.

0.0002 is de p-waarde!

Geschreven als \(p=.0002\)

Visueel

PART 3: Fouten bij inferenties

Waarom fouten?

Onthoud:

  • we maken inferentie gebaseerd op een steekproef
  • d.w.z. we hebben - per definitie - beperkte informatie
  • dus kunnen we onjuiste conclusies trekken.

Twee soorten fouten: Type 1 fouten en Type 2 fouten

Type 1 fouten

Analogie: fout-positieven

We concluderen dat er een verschil is (=een effect), maar het is vals alarm (in werkelijkheid is er geen effect).

In hypothese-termen: we verwerpen de nul, maar hadden dat niet moeten doen.

Type 1 fouten

Die fout willen we laag houden.

D.w.z. we willen heel zeker weten dat er een effect is.

Dit zit allemaal in het alpha-niveau: onder de nul ligt een proportie van precies \(\alpha\) in het kritieke gebied.

Voor \(\alpha=0.01\) ligt 1% van de waarden onder de nul in dat gebied.

Dus: in 1% van de gevallen zullen we ten onrechte concluderen dat er een effect is.

Type 2 fouten

Analogie: gemiste effecten.

We concluderen dat er geen verschil is, maar in werkelijkheid is dat er wel (d.w.z. we missen het effect).

In hypothese-termen: we verwerpen de nulhypothese niet, hoewel we dat wel hadden moeten doen.

Deze foutterm wordt \(beta\) genoemd.

Meer hierover in de week over statistische power

In de live sessies

  • factoren die nauw zijn verbonden met hypothesetoetsing en significantie
  • stap-voor-stap voorbeelden in hyp. testen

Recap

  • Verdelingen en steekproef
    • van populatieparameters naar steekproefstatistiek
    • wet van de grote getallen en de centrale limietstelling
    • opbouw van de verdeling van steekproefgemiddelden
  • Inleiding tot het testen van hypothesen
    • twee soorten hypothesen
    • de nulhypothese van verwachte steekproefgemiddelden
    • significantie en onwaarschijnlijkheid
  • Fouten in inferenties
    • Type 1 fouten
    • Type 2 fouten

Volgende week

  • de t-statistic